Introducción al curso y repaso

Encuentro 1

Análisis y visualización de datos con R + RStudio


Nivelación R + tidyverse

Tratamiento de tipos de datos específicos

Exploración, depuración y gestión de tablas de datos

Operaciones múltiples e iteración

Indicadores estadísticos

Visualización de datos

Documentos Quarto (2 semanas)

Tableros Quarto (2 semanas)

Esquema de trabajo


  • Los lunes comenzamos un nuevo tema en el aula virtual con material teórico-práctico, recursos extras, enlaces y bibliografía complementaria.
  • También habrá un trabajo práctico para desarrollar. Solo en dos momentos de la cursada estos trabajos prácticos servirán de evaluación.
  • Los viernes se realizará el encuentro sincrónico en la plataforma Webex (de 9 a 11 hs), donde se integrará el tema del bloque, veremos el trabajo práctico correspondiente a esa semana y responderemos consultas y dudas que hayan quedado.


Importante

El bloque 4 (Operaciones múltiples e iteración) tendrá dos semanas porque el viernes 21/6 es feriado puente.

Trabajos prácticos


  • Cada bloque tiene su trabajo práctico.

  • Es importante que lo intenten hacer antes del encuentro sincrónico para poder consultar las dudas y problemas.

  • Al finalizar la semana se subirá una resolución al aula virtual.

  • Sólo dos de estos TP serán evaluativos (al finalizar la 5 y 6 semana). Tendrán tiempo hasta la siguiente semana luego del sincrónico correspondiente.

  • El trabajo practico integrador se inicia luego del bloque 6 y se entrega el 23/8.


Nota

Estas fechas pueden sufrir cambios como resultado del desarrollo de la cursada.

Nivelación R


  • Instalación del software R + Rtools
  • Sintaxis básica
  • Asignación y creación de objetos
  • Funciones
  • Operadores y conectores
  • Paquetes
  • Estructura de datos (vectores y dataframes)
  • Secuencias
  • Valores especiales (NA)

Nivelación RStudio


  • Instalación del software
  • Paneles
  • Proyectos
  • Scripts
  • Herramientas de edición
  • Gestión de paquetes

Nivelación tidyverse



  • Filosofía de lo ordenado (tidydata)
  • Uso de tuberías %>% o |>
  • Lectura de datos (texto plano y Excel)
  • Manipulación de datos con dplyr - funciones-verbos principales (select, filter, rename, arrange, mutate, summarise, group_by, count, join_*)
  • Estilo de sintaxis

Funciones condicionales



Las llamamos funciones condicionales porque utilizan condiciones para decidir que valor tomar.

  • Las hay dicotomicas (toman solo dos valores posibles) o múltiples.

  • Sirven principalmente para discretizar o agrupar valores de variables existentes en nuevas variables, pero también se utilizan para modificar etiquetas de categorías y otras tareas.

  • Se aplican dentro de una función mutate() y el resultado se suele asignar a la misma tabla de datos para almacenar esos cambios.

  • Para construir las condiciones se utilizan los operadores de comparación y los conectores lógicos (cuando existe más de una condición). También sirven funciones específicas como between().

if_else()


Función de dplyr basado en el ifelse() del R base.

Maneja condiciones dicotómicas y situaciones especiales con valores faltantes (missing).


datos <- datos |> 
  mutate(variable_nueva = if_else(condition = condicion, 
                                  true = "valor si se cumple la condición", 
                                  false = "valor si no se cumple",
                                  missing = "valor para el NA"))


El argumento missing es opcional.

Por defecto, esta igualado a NULL y devuelve NA.

cut_interval()


Función de ggplot2 que discretiza datos numéricos a categóricos. Similar a la función cut() de R base.

Forma n grupos o intervalos de clase ordenados y de igual rango (regulares).


datos <- datos |> 
  mutate(variable_nueva = cut_interval(x = variable_cuantitativa, 
                                       n = NULL, 
                                       length = NULL,
                                       ...))


n número de intervalos a crear

length tamaño de cada intervalo

... recibe valores en los mismos argumentos que cut().


labels y right son dos de ellos, por ejemplo.

case_when()


Función de dplyr que vectoriza múltiples if_else().

Cada condición se evalúa secuencialmente y la primera coincidencia determina el valor de salida.


datos <- datos |> 
  mutate(variable_nueva = case_when(
                            condicion1 ~ "valor1", 
                            condicion2 ~ "valor2", 
                            condicion3 ~ "valor3", 
                            .default = "valor_default"))


.default cuando todas la condiciones declaradas devuelven FALSE o NA, la observación toma este valor por defecto.

Si no se declara el valor predeterminado es NULL, por lo que se asigna un valor faltante (NA).

between()


Función de dplyr diseñada como un atajo para la situación de intervalos de variables cuantitativas x >= left & x <= right.

Simplifica la construcción de intervalos de clase y se suele utilizar en argumentos condicionales.

Suelen utilizarse dentro de case_when(), if_else() y filter().


datos <- datos |> 
  mutate(variable_nueva = case_when(
                            between(-Inf, x1) ~ "valor1", 
                            between(x2, x3) ~ "valor2", 
                            between(x4, Inf) ~ "valor3", 
                            .default = "valor_default"))


Devuelve un vector lógico con el cumplimiento (TRUE) o no (FALSE).

Los valores declarados a izquierda y derecha se incluyen siempre en el intervalo (intervalos cerrados).